10月30日,据彭博社报道,美国总统特朗普在“空军一号”专机上接受采访时透露,其当日在与中国领导人会谈时,确实讨论了英伟达在中国业务的情况,但是他强调“我们没有在谈Blackwell”。 不过,对于关于美国政府可能会在此次会谈中承诺批准削弱后的英伟达Blackwell GPU的对华出口的传闻,特朗普予以了否认。“我们没有在谈Blackwell。 此前的传闻称,英伟达正为中国市场开发一款基于最新 Blackwell 架构的定制版AI芯片,以替代H20芯片,型号或为B30A,性能可能会是基础型号的Blackwell GPU的80%。
随着NVIDIA Blackwell RTX GPU的发布,为了确保应用程序与这些新一代GPU的兼容性和最佳性能,应用开发者必须更新到最新的AI框架。 NVIDIA专门发布了一个指南,详细介绍与NVIDIA Blackwell RTX GPU兼容所需的核心软件库更新,特别是CUDA 12.8的相关信息。 这确保了CUDA应用程序能够充分利用Blackwell GPU的计算能力。 构建未来兼容的CUDA应用程序 为了构建能够即时编译到未来NVIDIA GPU的应用程序,NVIDIA推荐以下构建方法: 发送PTX:发送PTX代码可以确保为Blackwell GPU编写的代码能够即时编译到未来的架构上 llama.cpp llama.cpp与最新的Blackwell GPU兼容。
英伟达最新发布的Blackwell架构GPU与微软Azure AI平台的深度融合,为此提供了革命性的解决方案。 本文将从Blackwell Ultra GPU的技术革新、Azure AI的生态系统适配、万亿参数模型训练的具体实践,以及未来技术演进的路径展开分析。 Blackwell Ultra GPU:万亿参数模型的硬件基石1.1 架构设计的突破性创新Blackwell架构通过全栈系统性优化,突破了超大规模AI模型训练的算力天花板。 通过革命性的双芯硅中介层封装技术,实现两颗B200 GPU与Grace CPU的异构整合,形成GB200 Grace Blackwell超级芯片。 在576 GPU规模下仍保持1.8TB/s的有效带宽实测数据显示,在1750亿参数的GPT-3模型训练中,Blackwell集群仅需64颗GPU即可达到Hopper架构256颗GPU的训练吞吐量,通信效率提升带来
8月29日消息,据CNBC报道,英伟达首席执行官黄仁勋在2026财年第二财季的财报会议后接受采访时首次对外表示,英伟达“确实有可能”将其先进的 Blackwell GPU引入中国大陆,同时他敦促美国政府为美国芯片制造商开放市场 “我们确实有可能将 Blackwell GPU引入中国市场。”黄仁勋指出:“我们需要继续强调美国科技公司在引领和赢得人工智能竞赛方面的重要性,并帮助美国技术栈成为全球标准。” 特朗普说,如果 Blackwell 的性能比该公司的顶级产品性能低至少 30%,他将允许英伟达出货。“我有可能就‘以消极方式得到一些增强’的Blackwell GPU达成协议,”特朗普对记者说。 《华尔街日报》最新的报道也指出,英伟达正为中国市场开发一款基于最新 Blackwell 架构的定制版AI芯片B30,性能将达到Blackwell GPU的80%。 此次,在黄仁勋公开乐观表示,Blackwell GPU有进入中国大陆市场的可能之时,英伟达公布的第二季度营收同比增长56%,达到540亿美元,尽管本季度没有向中国销售H20芯片。
本文将深入探讨 Blackwell GPU 的关键技术特点、性能优势及其在行业中的潜在应用。 二、Blackwell GPU 的关键技术特点 2.1 晶体管数量与制造工艺 晶体管数量:Blackwell GPU 包含了 2080 亿个晶体管,这一数量是 NVIDIA 之前产品的数倍,标志着芯片复杂性和性能的巨大飞跃 三、Blackwell GPU 的性能优势 3.1 高算力 AI 性能:Blackwell B200 GPU 提供了高达 20 petaflops 的 FP4 算力,这一数字不仅令人震惊,更是在 AI 四、Blackwell GPU 的应用前景 4.1 企业级应用 大规模部署:NVIDIA 对 Blackwell GPU 的市场前景充满信心,期望企业能够大量采购并将其应用于更大规模的设计中。 五、结论 NVIDIA Blackwell GPU 的发布标志着 AI 和 HPC 领域的一个重要里程碑。通过一系列的技术创新,Blackwell GPU 实现了前所未有的计算性能、能效和灵活性。
美国时间3月21日,NVIDIA GTC主题演讲的舞台上闪耀着一道光芒,那就是联合创始人兼总裁黄仁勋推出的一项划时代的创新:Blackwell GPU。 这款GPU并不仅仅是一块硬件,它仿佛是一座通向未来的桥梁,一个连接人类智慧与科技奇迹的纽带。 Blackwell GPU 的诞生不仅标志着NVIDIA在人工智能领域的巅峰成就,更是对数学家和统计学家David Blackwell的致敬。 因此,NVIDIA 选择以布莱克威尔的名字命名这款GPU,并不仅仅是因为它的性能和创新,更是为了纪念一个伟大的灵魂,一个永远的传奇。 Blackwell是一个知识巨人,他的影响深远,塑造了我们现今计算密集型世界的面貌。因此,NVIDIA 自然而然地以他的名字命名他们的革命性 GPU,以纪念他的遗产,这无疑是一件值得骄傲的事情。
8月24日消息,据《华尔街日报》最新的报道指出,人工智能(AI)芯片厂商英伟达(NVIDIA)正为中国市场开发一款基于最新 Blackwell 架构的定制版AI芯片B30,性能将达到Blackwell GPU的80%。 Blackwell GPU系列包括B100、B200、B300等型号,报道所指的“标Blackwell GPU”可能为B100。 特朗普说,如果 Blackwell 的性能比该公司的顶级产品性能低至少 30%,他将允许英伟达出货。“我有可能就‘以消极方式得到一些增强’的Blackwell GPU达成协议,”特朗普对记者说。 此前路透的报道称,英伟达最新的对华提供的Blackwell 架构GPU是基于单芯片版本的B300(即B300A)打造,因此型号或为“B30A”。
IonQ CEO Niccolòde Masi 近日在接受彭博社采访时表示,该公司计划在2027年推出搭载10,000个qubit(量子比特)的量子计算芯片,届时将彻底“淘汰”英伟达(NVIDIA)的Blackwell 构架GPU。 他强调,即便传统GPU 拥有“整个宇宙的时间”来计算,仍无法触及量子计算机可解决的问题规模。 他认为,随着量子逻辑栅极的成熟与误差修正机制的突破,传统架构的GPU在某些关键应用(化学模拟、密码学、最佳化)将显得过时。 再加上英伟达几乎每年都会推出新架构GPU,持续压缩竞争者空间,因此IonQ 要想在短期内取代Blackwell,仍显得遥不可及。 编辑:芯智讯-浪客剑
下面就让我们从规格参数、工艺节点、封装设计等方面来深入分析一下新一代Blackwell GPU的系统、定价、利润,以及Jensen's Benevolence(老黄的仁慈) 在这个大模型的时代,英伟达正处于世界之巅 不过这次新系列GPU的定价,可能会让很多人大吃一惊,也许我们会说「B」代表的不是「Blackwell」架构,而是「Benevolence」(老黄的仁慈)。 ——因为AI时代的主宰和救世主黄仁勋正在向全世界微笑,尤其是对于「GPU-poor」(缺乏GPU的用户)来说。 B100 / B200规格 首先,Blackwell架构将2个GPU芯片粘在了一起,而工艺制程仍然保持在4nm,跟上一代的Hopper架构一样。 Umbriel 和 Miranda Blackwell的第一个版本代号叫Umbriel,它保留了前代PCIe Gen 5、400G网络等,B100风冷式700W甚至可以无缝接入现有的H100和H200服务器底板
虽然英伟达CEO黄仁勋一直希望推动基于Blackwell架构的定制版GPU能够对中国出口,以替代已经落后的H20 GPU。 但是,据路透社报道,美国白宫11月4日表示,美国总统特朗普(Donald Trump)政府目前没有放开对中国出口英伟达(NVIDIA)最先进的Blackwell GPU 芯片的计划。 随后,美国财政部长斯科特·贝森特(Scott Bessent)在接受CNBC采访时进一步指出,只有当Blackwell GPU落后两代,甚至过时后,中国才可以拥有它们。 “Blackwell GPU目前是(英伟达)皇冠上的明珠。12-18个月前,H20 非常出色,也是皇冠上的明珠。……实际上技术发展非常的快,但这不是谈判的速度。因此,未来可能会有新的谈判。 贝森特这一表态符合当前的格局,基于 Hopper H20 GPU 仍然是英伟达所能向中国提供的最好AI芯片,因此,当 Blackwell 落后两代甚至落后更多代时,它才可能会被允许对中国出口。
5月29日消息,据The register报道,近日业内有传言称,英伟达(Nvidia)正准备推出一款将下一代 Arm Cortex CPU内核与其 Blackwell GPU内核相结合的芯片,主要面向 据悉,这家 GPU 巨头正在准备一款SoC,计划将Arm最新的超大核Cortex-X5 核心与其最近推出的 Blackwell 架构的 GPU IP相结合。 考虑到目前英伟达在云端人工智能领域的统治地位,在生成式AI开始从云端进入到边缘端的趋势之下,英伟达希望凭借其强大的GPU能力以及近年来在自研Grace Arm CPU上积累的经验,进入Arm Windows 然而,对于针对PC的Arm SoC来说,Blackwell GPU似乎是一个奇怪的选择,因为它是英伟达目前最新的高性能GPU设计。 然而,一些报道表明,英伟达将使用迄今为止未经宣布的面向消费者的基于Blackwell 的RTX GPU,以及对于LPDDR6内存的支持。
英伟达 Blackwell GPU:AI加速器技术与市场分析走向未来人工智能硬件市场正处在一个关键的战略转折点。过去几年,市场的重心主要集中在训练日益庞大的基础模型上,这是一个资本密集型的竞赛。 本章节将直接对比谷歌 Ironwood TPU 和英伟达 Blackwell GPU 的关键硬件参数,以揭示它们在设计理念上的根本差异。 机柜级计算域:Blackwell NVL72 系统将 72 个 GPU 通过高速 NVLink 紧密连接成一个计算单元,总算力达到 0.36 ExaFLOPS。 第三方验证:根据行业分析,经过深度优化的 TPU 集群,其性价比可以领先英伟达 Blackwell GB 系列 1 倍以上,而其硬件采购成本几乎仅为同等规模 GPU 集群的 一半。 结论:重塑 AI 基础设施版图通过对谷歌 Ironwood TPU 和英伟达 Blackwell GPU 的深入分析,我们可以清晰地看到,AI 硬件市场的竞争版图正在被深刻重塑。
重点内容 测试版(Beta): • Torch.Compile 支持 Torch 函数模式 • Mega 缓存 原型(Prototype): • 支持 NVIDIA Blackwell 架构 • PyTorch c10d • 实现了ncclCommInitRankScalable 分布式检查点(DCP) • 缓存保存计划,减少规划步骤开销 • 构建HF格式的存储读取器/写入器,用于写入检查点 CUDA • Blackwell • SGD和Adam(W)支持可微学习率和权重衰减 构建前端 • 通过HomeBrew安装的PyTorch启用OpenMP支持 • 在pytorch中为ppc64le架构启用onednn • 启用对Blackwell Python暴露 • 为embedding_bag增加输入索引非负范围检查 • 修复代码风格检查警告 • 修改内存固定(pin memory)行为,避免无CUDA上下文时自动初始化 • 为SM 10.0(Blackwell 防止运行时崩溃 • 只针对 SM 9.0 使用 f8f8bf16 行级缩放矩阵乘法 • 修复 Upsample2D 的 64 位索引问题 • 修复 _preload_cuda_deps 中的路径查找 • 支持 Blackwell
美国当地时间10月17日,晶圆代工龙头大厂台积电和人工智能芯片大厂英伟达(NVIDIA)共同宣布,他们在美国亚利桑那州凤凰城附近的台积电Fab 21晶圆厂制造的第一款基于英伟达Blackwell GPU 英伟达创始人兼首席执行官黄仁勋当天也参观了台积电Fab 21晶圆厂,庆祝第一款英伟达Blackwell晶圆在美国本土生产实现量产。 NVIDIA Blackwell GPU 为 AI 推理提供卓越的性能、投资回报率和能效。” “这是一个历史性时刻,原因有几个。 由于台积电Fab 21 目前量产的工艺制程是4nm,因此,此次台积电通过Fab 21为英伟达代工的Blackwell芯片应该是之前已经在中国台湾量产的Blackwell B300核心GPU的小芯片。 Blackwell GPU芯片。
与Blackwell GPU相比,Blackwell Ultra GPU包含了几项重要增强:1.5倍峰值NVFP4吞吐量。 Blackwell Ultra GPU采用了更新的张量核心,与Blackwell GPU相比,每时钟周期的峰值FP4吞吐量提高了1.5倍。这有助于加速受数学运算限制的通用矩阵乘法操作。 Blackwell Ultra GPU采用了更高容量的HBM3e堆栈,现在是12-Hi,而Blackwell GPU是8-Hi。 * 当比较上一轮2,496块Blackwell GPU提交与本轮2,560块Blackwell GPU提交的性能时,每块Blackwell GPU的有效性能也提高了42%。 从512块Blackwell GPU扩展到5,120块Blackwell GPU的缩放效率(即增加GPU带来的性能提升量)为85%。
为了帮助世界构建更大的 AI,英伟达必须首先拿出新的 GPU,这就是 Blackwell。此处老黄已有点词穷了:「这是块非常非常大的 GPU!」 Blackwell 的名字旨在纪念第一位入选美国国家科学院的黑人学者、数学家和博弈论学家 David Harold Blackwell,它继承了 Hopper GPU 架构,为加速计算树立了新的标准。 英伟达表示,Blackwell 架构的 GPU 预计将于今年晚些时候发货。 David Harold Blackwell。 图源 britannica 正如预期的一样,Blackwell 是英伟达首个采用 MCM(多芯片封装)设计的 GPU,在同一个芯片上集成了两个 GPU。 具体来讲,采用 Blackwell 架构的 GPU 分为了 B200 和 GB200 产品系列,后者集成了 1 个 Grace CPU 和 2 个 B200 GPU。
Blackwell B200 GPU,是如今世界上最强大的AI芯片,旨在「普惠万亿参数的AI」。 过去,训练一个1.8万亿参数的模型,需要8000个Hopper GPU和15MW的电力。 如今,2000个Blackwell GPU就能完成这项工作,耗电量仅为4MW。 在此之前,由16个GPU组成的集群,有60%的时间用于相互通信,只有40%的时间用于实际计算。 Blackwell GPU增加了对FP4和FP6的支持 另外,Blackwell还配备了RAS引擎。 新超算可训万亿参数大模型 当然,有了Blackwell超级芯片,当然还会有Blackwell组成的DGX超算。 这样,公司就会大量购入这些GPU,并将它们封装在更大的设计中。 它包括8个Blackwell GPU和2个第五代Intel Xeon处理器,包含FP4精度功能,提供高达144 petaflops的AI性能、1.4TB的GPU内存和64TB/s的内存带宽。
今天的GTC大会上,黄仁勋拿出了全新的Blackwell Ultra GPU,以及在此基础上衍生的应用于推理、Agent的服务器SKU,也包括基于Blackwell架构的RTX全家桶,这一切都与算力有关 NVL72机柜,一共由18个计算托盘构成,每个计算托盘包含4颗Blackwell Ultra GPU+2颗Grace CPU,总计也就是72颗Blackwell Ultra GPU+36颗Grace CPU 桌面GPU:,包括RTX PRO 6000 Blackwell 工作站版、RTX PRO 6000 Blackwell Max-Q工作站版、RTX PRO 5000 Blackwell、RTX PRO 4500 Blackwell 以及RTX PRO 4000 Blackwell笔记本GPU:RTX PRO 5000 Blackwell、RTX PRO 4000 Blackwell、RTX、PRO 3000 Blackwell、RTX PRO 2000 Blackwell、RTX PRO 1000 Blackwell以及RTX PRO 500 Blackwell数据中心 GPU:NVIDIA RTX PRO
早在 2021 年,知名爆料者 kopite7kimi 就称英伟达将推出代号为「Blackwell」的 GPU 架构。 与 Hopper/Ada 架构相比,Blackwell 计划将其覆盖范围扩展到数据中心和消费级 GPU。 此外,kopite7kimi 还提到 Blackwell 架构 GPU GB100 采用了多芯片模块(MCM)设计。这表明英伟达将采用先进的封装技术,提供更大的灵活性,来为消费者定制芯片。 图源:https://videocardz.com/newz/nvidia-blackwell-gb100-to-utilize-mcm-design-gpu-unit-structure-to-see-major-reorganization -1-5-tb-s-bandwidth-and-128mb-of-l2-cache 不过,RTX 40 系列刚刚发布一年,按照英伟达每两年更新主要通用 GPU 架构的计划,Blackwell 架构的 RTX
在当地时间3月18日召开的GTC大会上,黄仁勋拿出了全新的Blackwell Ultra GPU,以及在此基础上衍生的应用于推理、Agent的服务器SKU,也包括基于Blackwell架构的RTX全家桶 NVL72机柜,一共由18个计算托盘构成,每个计算托盘包含4颗Blackwell Ultra GPU+2颗Grace CPU,总计也就是72颗Blackwell Ultra GPU+36颗Grace 桌面GPU:,包括RTX PRO 6000 Blackwell 工作站版、RTX PRO 6000 Blackwell Max-Q工作站版、RTX PRO 5000 Blackwell、RTX PRO 4500 Blackwell 以及RTX PRO 4000 Blackwell 笔记本GPU:RTX PRO 5000 Blackwell、RTX PRO 4000 Blackwell、RTX、PRO 3000 Blackwell、RTX PRO 2000 Blackwell、RTX PRO 1000 Blackwell以及RTX PRO 500 Blackwell 数据中心 GPU:NVIDIA RTX